Optimización de políticas con recompensas híbridas eficientes en energía Descubre cómo H-EARS mejora eficiencia energética y estabilidad en RL con recompensas híbridas guiadas por física. Resultados en benchmarks y simulaciones. 2026-06-03 · 2 min